查看原文
其他

circlize 之 High-level genomic functions

JunJunLab 老俊俊的生信笔记 2022-08-15








这一节将结束 基因组的环形图可视化 了,下一节开启 circlize 绘制 和弦图 的章节。

在本章中,我们将介绍一些创建轨道的 高级函数

1、Ideograms(不知道咋翻译好)


circos. initializewithidegram()初始化环形图,如果 cytoband 数据可用,则添加 Ideograms 轨道。实际上,这些 Ideograms 是由 circos.genomicIdeogram()绘制的。circos.genomicIdeogram()创建了一个 Ideograms 的小轨道,可以在环形图的任何地方使用。默认情况下,它为人类基因组 hg19

circos.initializeWithIdeogram(plotType = c("labels""axis"))
circos.track(ylim = c(01))
# 把 Ideograms 绘制在第3个轨道
circos.genomicIdeogram()
# 绘制高度0.2的 Ideograms 轨道
circos.genomicIdeogram(track.height = 0.2)

2、热图


对应于基因组区域的矩阵可以用热图可视化。热图完全填满了轨道,并且有连接热图和基因组原始位置的连接线。circos.genomicHeatmap()将连线和热图绘制成两个轨道,并将它们组合成一个完整的轨道。

一般情况下,输入数据框中的所有数值列(不包括前三列)都用于制作热图。列也可以用 numeric.column 指定,可以是数值向量或字符向量。颜色可以指定为颜色矩阵或由 colorRamp2()颜色函数生成的。

连接线轨道和热图轨道的高度可以通过 connection_heightheatmap_height 参数来设置,另外,线条和矩形边框的样式参数也可以调整,请查看 circos.genomicHeatmap()的参考文档:

circos.initializeWithIdeogram()
bed = generateRandomBed(nr = 100, nc = 4)
col_fun = colorRamp2(c(-101), c("green""black""red"))
circos.genomicHeatmap(bed, col = col_fun, side = "inside", border = "white")
circos.clear()

设置 side = "outside",把热图放置在外侧,调整热图和连接线的高度,热图单元格边框颜色:

circos.initializeWithIdeogram(plotType = NULL)
circos.genomicHeatmap(bed, col = col_fun, side = "outside",
                      line_col = as.numeric(factor(bed[[1]])),
                      connection_height = 0.3,
                      heatmap_height = 0.2,
                      border = 'white')
circos.genomicIdeogram()
circos.clear()

3、标签


circos.genomicLabels()为指定的区域添加文本标签。标签的位置会自动调整,使它们不会相互重叠。

与 circos.genomicHeatmap()类似,circos.genomicLabels()也创建了两个轨道,其中一个是连接线,另一个是标签。可以通 labels_height = max(strwidth(labels))设置标签的高度为标签的最大宽度。padding 参数控制两个相邻标签之间的间隙:

circos.initializeWithIdeogram()
bed = generateRandomBed(nr = 50, fun = function(k) sample(letters, k, replace = TRUE))
bed[14] = "aaaaa"
circos.genomicLabels(bed, labels.column = 4, side = "inside")
circos.clear()

标签放置在外侧并设置标签和连线颜色:

circos.initializeWithIdeogram(plotType = NULL)
circos.genomicLabels(bed, labels.column = 4, side = "outside",
    col = as.numeric(factor(bed[[1]])), line_col = as.numeric(factor(bed[[1]])))
circos.genomicIdeogram()
circos.clear()

4、基因组坐标


对于 circos. initializewithidegram(),默认情况下,它绘制带有恰当格式的刻度标签的轴。轴是由 circos.genomicAxis()内部实现的,它可以用于在任何轨道上添加基因组坐标轴:

circos.initializeWithIdeogram(plotType = NULL)
circos.genomicIdeogram()
# still work on the ideogram track
# 绘制坐标轴在上边
circos.track(track.index = get.current.track.index(), panel.fun = function(x, y) {
    circos.genomicAxis(h = "top")
})
# 设置轨道高度
circos.track(ylim = c(01), track.height = 0.1)
# 绘制坐标轴朝里,在下边
circos.track(track.index = get.current.track.index(), panel.fun = function(x, y) {
    circos.genomicAxis(h = "bottom", direction = "inside")
})
circos.clear()

5、基因密度图和降雨图


降雨分布图用于可视化基因组区域在基因组中的分布。雨量分布图对于识别 regionscluster 特别有用。在降雨图中,每个点代表一个 region。x 轴对应于基因组坐标,y 轴对应于该区域与其相邻两个 region 的最小距离(log10 转换)。一个 cluster 的 region 将以降雨的形式展示在图中。

circos.genomicRainfall()计算每个区域的邻近距离,并在图上绘制点。由于 circos.genomicRainfall()生成 y 方向的数据(log10(distance)),它实际上是一个创建新轨道的高级函数。

输入数据可以是一个数据框,也可以是数据框的列表:

circos.genoimcRainfall(bed)
circos.genoimcRainfall(bed_list, col = c("red""green"))

然而,如果 cluster 中的 region 数量很高,点就会重叠,直接评估 cluster 中的 region 数量和密度是不可能的。为了克服这一限制,添加了其他轨道来可视化区域的基因组密度(定义为基因组区域覆盖的基因组窗口)。

circos.genomicDensity()计算一个基因组窗口被 regions 覆盖了多少。它也是一个高级功能,创建一个新的轨道。输入数据可以是单个数据框,也可以是数据框列表:

circos.genomicDensity(bed)
circos.genomicDensity(bed, baseline = 0)
circos.genomicDensity(bed, window.size = 1e6)
circos.genomicDensity(bedlist, col = c("#FF000080""#0000FF80"))

下面的例子给出了差异甲基化区域(DMR)及其基因组密度的降雨图。在图中,红色对应着 DMRs 的高甲基化(甲基化增加),蓝色对应着 DMRs 的低甲基化(甲基化缺失):

load(system.file(package = "circlize""extdata""DMR.RData"))
circos.initializeWithIdeogram(chromosome.index = paste0("chr"1:22))

bed_list = list(DMR_hyper, DMR_hypo)
circos.genomicRainfall(bed_list, pch = 16, cex = 0.4, col = c("#FF000080""#0000FF80"))
circos.genomicDensity(DMR_hyper, col = c("#FF000080"), track.height = 0.1)
circos.genomicDensity(DMR_hypo, col = c("#0000FF80"), track.height = 0.1)
circos.clear()

circos.genomicDensity()还支持通过设置 count_by = "number"来计算每个窗口重叠区域的数量:

circos.initializeWithIdeogram(chromosome.index = paste0("chr"1:22))
circos.genomicDensity(DMR_hyper, col = c("#FF000080"), track.height = 0.1)
circos.genomicDensity(DMR_hyper, col = c("#FF000080"), count_by = "number", track.height = 0.1)
circos.clear()

在内部,rainfallTransform()genomicDensity()用于计算邻近距离和基因组密度值:

head(rainfallTransform(DMR_hyper))
##      chr   start     end  dist
## 70  chr1  933445  934443 35323
## 104 chr1  969766  970362  4909
## 105 chr1  975271  976767  4909
## 154 chr1 1108819 1109923 31522
## 155 chr1 1141445 1142405 31522
## 157 chr1 1181550 1182782 39145
head(genomicDensity(DMR_hyper, window.size = 1e6))
##    chr   start     end    value
## 1 chr1       1 1000000 0.003093
## 2 chr1  500001 1500000 0.007592
## 3 chr1 1000001 2000000 0.008848
## 4 chr1 1500001 2500000 0.010155
## 5 chr1 2000001 3000000 0.011674
## 6 chr1 2500001 3500000 0.007783

嵌套缩放

1、基本思想


在之前文章中,我们介绍了如何将扇区放大到同一轨道上的同一圆中。如果只需要缩放少数区域,这种方法就可以很好地工作。然而,当需要缩放的区域过多时,该方法将无法有效地工作。接下来,介绍另一种缩放方法,将缩放区域放在不同的圆形图中。

为了说明基本思想,我们首先生成一个随机数据集:

set.seed(123)
df = data.frame(cate = sample(letters[1:8], 400, replace = TRUE),
                x = runif(400),
                y = runif(400),
                stringsAsFactors = FALSE)
df = df[order(df[[1]], df[[2]]), ]
rownames(df) = NULL
df$interval_x = as.character(cut(df$x, c(00.20.40.60.81.0)))
df$name = paste(df$cate, df$interval_x, sep = ":")
df$start = as.numeric(gsub("^\\((\\d(\\.\\d)?).*(\\d(\\.\\d)?)]""\\1", df$interval_x))
df$end = as.numeric(gsub("^\\((\\d(\\.\\d)?),(\\d(\\.\\d)?)]$""\\3", df$interval_x))
nm = sample(unique(df$name), 20)
df2 = df[df$name %in% nm, ]

correspondance = unique(df2[, c("cate""start""end""name""start""end")])
zoom_sector = unique(df2[, c("name""start""end""cate")])
zoom_data = df2[, c("name""x""y")]

data = df[, 1:3]
sector = data.frame(cate = letters[1:8], start = 0, end = 1, stringsAsFactors = FALSE)

sector_col = structure(rand_color(8, transparency = 0.5), names = letters[1:8])

下面的变量用于下游可视化。扇区包含扇区名称和 x 方向坐标:

head(sector, n = 4)
##   cate start end
## 1    a     0   1
## 2    b     0   1
## 3    c     0   1
## 4    d     0   1

data 包含一个轨道的点:

head(data, n = 4)
##   cate          x         y
## 1    a 0.02314449 0.2170480
## 2    a 0.03978064 0.8062479
## 3    a 0.06893260 0.6284048
## 4    a 0.07997291 0.5835629

在扇区中,我们随机抽样几个区间,这些区间将用于缩放。缩放间隔区存储在 zoom_sector 中。在缩放轨道中,每个间隔被视为一个独立的扇区,因此,每个缩放间隔的名称使用了原始扇区名称和间隔本身的组合,便于理解:

head(zoom_sector, n = 4)
##           name start end cate
## 17 a:(0.4,0.6]   0.4 0.6    a
## 48   a:(0.8,1]   0.8 1.0    a
## 57   b:(0,0.2]   0.0 0.2    b
## 76 b:(0.4,0.6]   0.4 0.6    b

缩放间隔区数据:

head(zoom_data, n = 4)
##           name         x         y
## 17 a:(0.4,0.6] 0.4072693 0.3972460
## 18 a:(0.4,0.6] 0.4186692 0.2021846
## 19 a:(0.4,0.6] 0.4481431 0.3554347
## 20 a:(0.4,0.6] 0.4597852 0.6696035

原始扇区和缩放间隔区之间的对应是对应的。该值是一个有六列的数据框:

head(correspondance, n = 4)
##    cate start end        name start.1 end.1
## 17    a   0.4 0.6 a:(0.4,0.6]     0.4   0.6
## 48    a   0.8 1.0   a:(0.8,1]     0.8   1.0
## 57    b   0.0 0.2   b:(0,0.2]     0.0   0.2
## 76    b   0.4 0.6 b:(0.4,0.6]     0.4   0.6

缩放实际上是由两个环形图组成,其中一个是原始轨道,另一个是缩放间隔图。还有一个附加的连接轨道,用于标识缩放的间隔属于哪个扇区。circlize 中的 circos.nested()函数将两个环形图放在一起,排列它们,并自动绘制连接线。

要生成嵌套循环图,需要将生成图的代码包装到一个函数中:

f1 = function() {
    circos.par(gap.degree = 10)
    circos.initialize(sector[, 1], xlim = sector[, 2:3])
    circos.track(data[[1]], x = data[[2]], y = data[[3]], ylim = c(01),
        panel.fun = function(x, y) {
            circos.points(x, y, pch = 16, cex = 0.5, col = "red")
    })
}

f2 = function() {
    circos.par(gap.degree = 2, cell.padding = c(0000))
    circos.initialize(zoom_sector[[1]], xlim = as.matrix(zoom_sector[, 2:3]))
    circos.track(zoom_data[[1]], x = zoom_data[[2]], y = zoom_data[[3]],
        panel.fun = function(x, y) {
            circos.points(x, y, pch = 16, cex = 0.5)
        })
}

在上面,f1()是生成原始图的代码,f2()是生成缩放图的代码。它们可以独立执行。

要绘制嵌套缩放环形图,只需要把 f1()f2()corresponance 放到 circos.nested()函数里即可:

circos.nested(f1, f2, correspondance)

在上图中,放大的圆被放在原来的圆内部,第二个圆的起始度被自动调整。

通过切换 f1()和 f2()也可以将放大的圆放在外面。实际上,对于 circos.nested(),它并不关心哪一个被缩放了,它们只是两个圆形图和一个 correspondance 数据而已:

circos.nested(f2, f1, correspondance[, c(4:61:3)])
注意事项:
  • 只能应用整个环形图。
  • 如果 canvas.xlim 和 canvas.ylim 在第一个图设置了,应该在绘制第二个图同样再次设置。
  • 默认情况下,第二个 plot 的起始角度会自动调整,以使原始位置和缩放扇区之间的差异最小。但是,用户也可以通过设置 circos.par("start.degree" =…)手动调整第二个 plot 的起始角度,并且在 circos.nested()中必须将起始度设置为 TRUE。
  • 由于函数需要知道两个环形图的信息,所以不要将 circos.clear()放在每个图的末尾。它们在内部会自动添加。

f1()f2()只是实现循环绘图的普通代码。还可以添加代码让它更复杂:

sector_col = structure(rand_color(8, transparency = 0.5), names = letters[1:8])

f1 = function() {
    circos.par(gap.degree = 10)
    circos.initialize(sector[, 1], xlim = sector[, 2:3])
    circos.track(data[[1]], x = data[[2]], y = data[[3]], ylim = c(01),
        panel.fun = function(x, y) {
            l = correspondance[[1]] == CELL_META$sector.index
            if(sum(l)) {
                for(i in which(l)) {
                    circos.rect(correspondance[i, 2], CELL_META$cell.ylim[1],
                                correspondance[i, 3], CELL_META$cell.ylim[2],
                                col = sector_col[CELL_META$sector.index],
                                border = sector_col[CELL_META$sector.index])
                }
            }
            circos.points(x, y, pch = 16, cex = 0.5)
            circos.text(CELL_META$xcenter, CELL_META$ylim[2] + mm_y(2),
                CELL_META$sector.index, niceFacing = TRUE, adj = c(0.50))
    })
}

f2 = function() {
    circos.par(gap.degree = 2, cell.padding = c(0000))
    circos.initialize(zoom_sector[[1]], xlim = as.matrix(zoom_sector[, 2:3]))
    circos.track(zoom_data[[1]], x = zoom_data[[2]], y = zoom_data[[3]],
        panel.fun = function(x, y) {
            circos.points(x, y, pch = 16, cex = 0.5)
        }, bg.col = sector_col[zoom_sector$cate],
        track.margin = c(00))
}
circos.nested(f1, f2, correspondance, connection_col = sector_col[correspondance[[1]]])

实战演练


可视化 WGBS 的 DMRs 区域

基于标记的全基因组亚硫酸氢盐测序(T-WGBS)是一种只能检测感兴趣的一小部分甲基组的技术。我们将演示如何通过 circlize 可视化从 T-WGBS 数据中检测到的 DMRs。

在加载的示例数据中,tagments 包含已测序的区域,DMR1 包含标记区域中检测到的一个患者的 DMRs。标记区域与原始基因组之间的对应以 correspondance 的方式存储:

load(system.file(package = "circlize""extdata""tagments_WGBS_DMR.RData"))
head(tagments, n = 4)
##                   tagments     start       end  chr
## 1   chr1-44876009-45016546  44876009  45016546 chr1
## 2   chr1-90460304-90761641  90460304  90761641 chr1
## 3 chr1-211666507-211692757 211666507 211692757 chr1
## 4   chr2-46387184-46477385  46387184  46477385 chr2
head(DMR1, n = 4)
##                      chr    start      end   methDiff
## 1 chr1-44876009-45016546 44894352 44894643 -0.2812889
## 2 chr1-44876009-45016546 44902069 44902966 -0.3331170
## 3 chr1-90460304-90761641 90535428 90536046 -0.3550701
## 4 chr1-90460304-90761641 90546991 90547262 -0.4310808
head(correspondance, n = 4)
##    chr     start       end                 tagments   start.1     end.1
## 1 chr1  44876009  45016546   chr1-44876009-45016546  44876009  45016546
## 2 chr1  90460304  90761641   chr1-90460304-90761641  90460304  90761641
## 3 chr1 211666507 211692757 chr1-211666507-211692757 211666507 211692757
## 4 chr2  46387184  46477385   chr2-46387184-46477385  46387184  46477385

在下面的代码中,f1()只绘制了全基因组的环形图,f2()绘制了标记区域的环形图:

chr_bg_color = rand_color(22, transparency = 0.8)
names(chr_bg_color) = paste0("chr"1:22)

f1 = function() {
    circos.par(gap.after = 2, start.degree = 90)
    circos.initializeWithIdeogram(chromosome.index = paste0("chr"1:22),
        plotType = c("ideogram""labels"), ideogram.height = 0.03)
}

f2 = function() {
    circos.par(cell.padding = c(0000), gap.after = c(rep(1, nrow(tagments)-1), 10))
    circos.genomicInitialize(tagments, plotType = NULL)
    circos.genomicTrack(DMR1, ylim = c(-0.60.6),
        panel.fun = function(region, value, ...) {
            for(h in seq(-0.60.6, by = 0.2)) {
                circos.lines(CELL_META$cell.xlim, c(h, h), lty = 3, col = "#AAAAAA")
            }
            circos.lines(CELL_META$cell.xlim, c(00), lty = 3, col = "#888888")

            circos.genomicPoints(region, value,
                col = ifelse(value[[1]] > 0"#E41A1C""#377EB8"),
                pch = 16, cex = 0.5)
    }, bg.col = chr_bg_color[tagments$chr], track.margin = c(0.020))
    circos.yaxis(side = "left", at = seq(-0.60.6, by = 0.3),
        sector.index = get.all.sector.index()[1], labels.cex = 0.4)
    circos.track(ylim = c(01), track.height = mm_h(2),
        bg.col = add_transparency(chr_bg_color[tagments$chr], 0))
}

circos.nested(f1, f2, correspondance, connection_col = chr_bg_color[correspondance[[1]]])



发现更多精彩

关注公众号

欢迎小伙伴留言评论!

今天的分享就到这里了,敬请期待下一篇!

最后欢迎大家分享转发,您的点赞是对我的鼓励肯定

如果觉得对您帮助很大,打赏一下吧!

推 荐 阅 读




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存